统计功效(Power)——快速入门

作者:Ruben Geert van den Berg,归类于统计学A-Z

在统计学中,统计功效(Power),也称为检验效能,是指当实际上存在效应时,正确拒绝错误的零假设的概率。

  • 功效计算示例
  • 功效与显著性水平(Alpha Level)
  • 功效与效应量(Effect Size)
  • 功效与样本量(Sample Size)
  • 功效计算的3个主要原因
  • 功效计算软件 - G*Power

统计功效——最小化示例

  • 在某个国家,智商(IQ)与薪水的人群相关性 ρ = .10。
  • 一位科学家抽取了 N = 10 人的样本,发现样本相关性 r = .15。
  • 他检验了(错误的)零假设 H₀,即 ρ = 0。该检验的显著性水平p = .68。
  • 由于 p > .05,大于他选择的显著性水平 alpha,他没有拒绝他(错误的)零假设,即 ρ = 0。

现在,给定样本量 N = 10 和人群相关性 ρ = 0.10,正确拒绝零假设的概率是多少?这个概率被称为功效,在统计学中表示为 (1 - β)。对于上述例子,(1 - β) 只有 .058(大约 6%),如下所示。

Gpower Example Single Correlation

如果人群相关性 ρ = .10 并且 我们抽样了 N = 10 名受访者,那么 我们需要找到一个绝对样本相关性 | r | > .63 才能在 α = .05 水平拒绝 H₀。 找到这个相关性的概率只有 .058。

因此,即使 H₀ 是错误的,我们也不太可能真正拒绝它。不拒绝错误的 H₀ 被称为犯了第二类错误(Type II error)。

第一类错误(Type I error)和第二类错误(Type II error)

任何零假设都可能是真的或假的,我们可能拒绝也可能不拒绝它。这导致了以下4种情况。

现实:H₀ 是真的 现实:H₀ 是假的
决策:拒绝 H₀ 第一类错误(Type I error)
概率 = α
正确的决策
概率 = (1 - β) = 功效(Power)****
决策:保留 H₀ 正确的决策
概率 = (1 - α)
第二类错误(Type II error)
概率 = β

正如您可能猜到的,我们通常希望检验的功效尽可能高。但在研究影响功效的因素之前,让我们先尝试了解功效计算是如何实际运作的。

功效计算示例

一家制药公司想要证明他们治疗高血压的药物确实有效。他们预期如下:

  • 在一些未经治疗的人群中,平均血压为 160 mmHg;
  • 他们期望他们的药物将血压降低到大约 154 mmHg;
  • 标准差应在 8 mmHg 左右(两个人群);
  • 他们计划使用独立样本 t 检验,在 α = 0.05 的显著性水平下,每个子样本的 N = 20。

考虑到这些因素,这项研究的功效是多少?或者 - 换句话说 - 治疗人群和未治疗人群之间的平均血压相等的零假设 H₀ 被拒绝的概率是多少?

显然,在研究完成之前,没有人知道这项研究的结果。但是,我们确实知道最可能的结果:它们是我们的人群估计值。因此,让我们先假设我们会完全找到这些结果,并将它们输入到 t 检验计算器中。

Power For T-Test Excel Example 在Excel中计算预期样本量,平均值和标准差的t检验

我们预计 p = 0.023,因此我们预计会拒绝 H₀ 。 这是基于自由度 df = 38 的 t 分布(总样本量 N = 40 - 2)。 如果人群平均值差异为 6 mmHg(160 - 154),我们预计会发现 t = 2.37。

现在,在备择假设 Hₐ 下的这个预期(或平均)t = 2.37 被称为非中心性参数(Noncentrality Parameter,NCP)。NCP 告诉我们 t 在某些精确的备择假设下是如何分布的,因此允许我们估计某些检验的功效。下图说明了这是如何运作的。

Central Noncentral T-Distribution For Power
  • 首先,我们的 H₀ 是使用自由度 df = 38 的中心 t 分布进行检验的;
  • 如果我们在 α = 0.05(双尾)水平下进行检验,如果 t < -2.02(左临界值)或如果 t > 2.02(右临界值),我们将拒绝 H₀;
  • 如果我们的备择假设 Hₐ 完全正确,则 t 服从自由度 df = 38 且 NCP = 2.37 的非中心 t 分布;
  • 在这种非中心 t 分布下,找到 t > 2.02 的概率 ≈ 0.637。因此,这大致是我们拒绝 H₀ 的概率 - 或者我们第一个场景的功效 (1 - β)。

这里需要注意的一点是,如果 t < -2.02,我们也会拒绝 H₀,但在我们的第一个场景中,这种概率几乎为零。精确的计算可以从下面的 SPSS 语法 中复制。

***输入选择的alpha和预期的NCP作为原始数据。
data list free/alpha ncp.
begin data
0.05 2.37
end data.

***计算左(lct)和右(rct)临界t值和power。
compute lct = idf.t(0.5 * alpha,38).
compute rct = idf.t(1 - (0.5 * alpha),38).
compute lprob = ncdf.t(lct,38,ncp).
compute rprob = 1 - ncdf.t(rct,38,ncp).
compute power = lprob + rprob.
execute.

***显示所有值的小数点后3位。
formats all (f8.3).

功效与效应量(Effect Size)

就像我们刚才看到的,估计功效需要指定

  • 一个精确的零假设和
  • 一个精确的备择假设。

在前面的例子中,我们的科学家们有一个精确的备择假设,因为他们对人群平均值和标准差有非常具体的想法。然而,在大多数应用研究中,我们对这样的人群参数一无所知。这就提出了一个问题:我们如何获得一个精确的备择假设?

对于大多数检验,备择假设可以被指定为一个效应量度量:一个结合了几个平均值、方差和/或频率的单个数字。像这样,我们从需要一堆未知参数变为只需要一个未知参数。

更棒的是:对于效应量度量,存在广泛认可的经验法则。概述显示在这个 Google 表格中,部分显示如下。

Effect Size Rules Of Thumb

在应用研究中,我们经常使用 G*Power 来估计功效。下面的截图复制了我们针对血压药物研究的功效计算示例。

Gpower Example Independent Samples T-Test G*Power 从两个平均值和标准差计算效应量和功效

请注意,在 G*Power 中估计功效只需要

单个估计的效应量度量。可以选择,G*Power 会根据您的样本平均值和标准差为您计算它。 用于检验零假设的显著性水平 alpha - 通常为 0.05 - 和 一个或多个样本量

现在让我们来看看这 3 个因素是如何与功效相关的。

影响功效的因素

下图简要概述了 3 个因素如何与功效相关。

Factors Affecting Power In Statistics

现在让我们更仔细地看看每一个因素。

功效与显著性水平(Alpha Level)

在其他条件相同的情况下,增加 alpha 会增加功效。对于我们的示例计算,如果我们在 α = 0.10 而不是 0.05 下进行检验,则功效从 0.637 增加到 0.753。

Sampling Distributions Power Versus Alpha

更高的 alpha 水平会导致更小(绝对值)的临界值:如果 t > 1.69 而不是 t > 2.02,我们已经拒绝了 H₀。因此,指示 (1 - β) 的浅蓝色区域增加。我们基本上需要与 H₀ 较小的偏差才能达到统计显著性。

然而,增加 alpha 是有代价的:它增加了犯第一类错误(Type I error)(当 H₀ 实际上为真时拒绝 H₀)的概率。因此,通常不赞成在 α > 0.05 下进行检验。简而言之,增加 alpha 基本上只是通过增加另一个问题来减少一个问题。

功效与效应量(Effect Size)

在其他条件相同的情况下,更大的效应量会导致更高的功效。对于我们的示例,如果我们认为 Cohen’s D = 1.0 而不是 0.8,则功效从 0.637 增加到 0.869。

Power Versus Effect Size Sampling Distributions

更大的效应量会导致更大的非中心性参数(NCP)。因此,在 H₀ 和 Hₐ 下的分布相距更远。这增加了指示该检验功效的浅蓝色区域。

但请记住,我们可以估计但不能选择某些人群效应量。如果我们高估了这种效应量,我们将相应地高估我们检验的功效。因此,我们通常不能通过增加效应量来增加功效。

一个有争议的例外是通过修改研究设计或分析来增加效应量。例如,通过向分析中添加协变量,方差分析(ANOVA)中治疗效应的(部分)eta 平方可能会增加。

功效与样本量(Sample Size)

在其他条件相同的情况下,更大的样本量会导致更高的功效。对于我们的示例,将总样本量从 N = 40 增加到 N = 80 会将功效从 0.637 增加到 0.912。

Power Versus Sample Size Sampling Distributions

功效的增加源于我们的分布相距更远。这反映了非中心性参数(NCP)的增加。但是为什么 NCP 会随着更大的样本量而增加呢?

好吧,回想一下,对于 t 分布,NCP 是在 Hₐ 下的预期 t 值。现在,t 的计算公式为

\[t = \frac{\overline{X_1} - \overline{X_2}}{SE}\]

其中 \(SE\) 表示平均值差异的标准误(standard error)。反过来,\(SE\) 的计算公式为

\[SE = Sw\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}\]

其中 \(S_w\) 表示结果变量的估计人群标准差(SD)。这个公式表明,随着样本量的增加,\(SE\) 会减小,因此 t(以及 NCP)会增加

除此之外,自由度也会增加(对于我们的示例,从 df = 38 增加到 df = 78)。这会导致略小(绝对值)的临界 t 值,但这种效应非常小。

简而言之,增加样本量是增加某些检验功效的可靠方法。

功效与研究设计

除了样本量、效应量和 α 之外,研究设计也可能影响功效。虽然没有确切的公式,但一些一般准则是

  • 在其他条件相同的情况下,被试内设计往往比被试间设计具有更大的功效;
  • 对于协方差分析(ANCOVA),包括一个或两个协变量往往会增加证明治疗效果的功效;
  • 对于多元回归,随着模型中添加更多预测变量,每个单独的预测变量的功效往往会降低;

功效计算的 3 个主要原因

应用研究中的功效计算有 3 个主要目的:

  • 在数据收集之前计算所需的样本量。这包括估计效应量并选择 α(通常为 0.05)和所需的功效(1 - B),通常为 0.80;
  • 在收集某些计划分析的数据之前估计功效。这需要指定预期的样本量,选择 α 并估计预期哪些效应量。如果估计的功效较低,则可以取消计划的研究,或者以更大的样本量进行研究;
  • 在收集和分析数据后估计功效。此计算基于实际样本量、用于检验的 α 和观察到的效应量。

Gpower Types Of Power Analyses G*Power 使不同类型的功效分析变得简单

功效计算软件 - G*Power

G*Power 是一款可免费下载的软件,用于运行上述和许多其他功效计算。其功能包括

  • 从描述性统计信息(主要是样本平均值和标准差)计算效应量;
  • 计算功效、所需的样本量、所需的效应量等等;
  • 创建可视化功效、效应量和样本量如何与许多不同的统计程序相关的图表。下图显示了多元线性回归的一个示例。

Linear Regression Power Sample Size Plot 在给定所需功效、选择的 α 和 3 个估计的效应量的情况下,多元线性回归所需的样本量

总而言之,我们认为 G*Power 是一款出色的软件,我们强烈建议使用它。我们能想到的唯一缺点是它需要相当不寻常的效应量度量。一些例子是

这很尴尬,因为 APA(以及可能因此)大多数期刊文章通常建议报告

  • 方差分析的(部分)eta 平方和
  • 列联表系数或(更好的是)Cramér’s V 用于卡方检验。

这些也是我们通常从 SPSS 或 JASP 等统计软件包中获得的度量。幸运的是,G*Power 转换了一些度量和/或从描述性统计信息计算它们,就像我们在 此截图 中看到的那样。

功效计算软件 - SPSS

SPSS 中,可以从 GLM、UNIANOVA 和(已弃用的)MANOVA 过程中获得观察到的功效(observed power)。请记住,GLM - 通用线性模型(General Linear Model)的缩写 - 确实非常通用:它可用于各种分析,包括

Observed Power In SPSS Glm 从 分析(Analyze)- 通用线性模型(General Linear Model)- 单变量(Univariate)- 选项(Options)中选择观察到的功效(Observed power)

其他功效计算(所需样本量或在数据收集之前估计功效)已添加到 2020 年发布的 SPSS 27 版本中。

Power Analysis In SPSS 27 在 SPSS 27 及更高版本中找到的功效分析

在我看来,SPSS 功效分析是一种可悲的尝试,旨在与 GPower 竞争。如果您不相信我,只需尝试同时在两个程序中运行几个功效分析即可。如果您相信我,请忽略 SPSS 功效分析,直接选择 GPower。

感谢您的阅读。